Mirage (VLM)
https://vlm-mirage.github.io/
Project
https://github.com/UMass-Embodied-AGI/Mirage
UMass-Embodied-AGI/Mirage
https://www.arxiv.org/abs/2506.17218
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
https://gyazo.com/c53f2cebd5536b6522ee2638b3a96c0d
VLM
が視覚的推論をしようとするとき、現状画像をテキストに置き換えてテキストとして考えるしかない
画像生成を組み込むと重すぎる
そこで画像は生成せず、
潜在空間
のlatent visual tokensで推論する
これ潜在空間がvaeと対応できるなら、推論(Reasoning)だけじゃなくて
ImageGPT
見たいなタスクもできそうね
morisoba65536.icon
Reasoning